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摘 要 : [目的 /意义 ] 基 于 知识 图 谱 的 “一 带 一 路 "投资 问答 系统 有 效 整合 多 种 来 源 的 信息 资源 ,能 为 用 户 提供 快捷 、 准 确 、 
高 质 的 “一 带 一 路 ”投资 信息 ,具有 重要 的 研究 和 应 用 意义 。[ 方 法 /过 程 ] 对 “一 带 一 路 ”投资 相关 的 信息 进行 采 
集 、 处 理 与 整合 ,在 专家 指导 下 构建 “一 带 一 路 ”投资 知识 图 谱 。 在 此 基础 上 ,问答 系统 的 各 部 分 功能 得 以 实现 , 包 
括 :用 户 问 题 预 处 理 、 问 题 分 类 、 问 题 模板 匹配 及 答案 查询 。| 结果 /结论 ] 实验 结果 表明 ,该 系统 能 有 效 回 答 "一带 


一 路 ”投资 相关 问题 。 
美 键 词 : 问答 系统 知识 图 谱 
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2 一 带 一 路 "是 新 时 期 中 国 形成 全 方位 开放 格局 
的 一 要 路 径 ”"。 自 2013 年 ,习近平 总 书记 提出 “一 带 
的 "倡议 以 来 ,我 国企 业 便 开 始 积极 向 "一 带 一 路 ” 


009 亿 美元 ”。 随 着 投资 活动 增加 ,企业 对 东道 国 国 
情 S 投 资 环境 .投资 政策 .投资 手续 等 信息 需求 也 随 之 
增多 。 但 从 现 有 情况 看 ,一 方面 , 仅 依靠 互联 网 搜索 引 
擎 鲍 获 取 “ 一 带 一 路 "投资 相关 信息 ,存在 信息 数量 
大 .信息 元 余 、 信 息 质 量 良 劳 不 齐 等 问题 ,需要 耗费 大 
量 人 工 才能 获取 其 中 的 知识 ; 另 一 方面 ， 一 带 一 路 ” 
投资 信息 资源 的 多 源 异 质 .结构 松散 等 特点 ,使 其 整合 
性 和 关联 性 差 ,难以 提供 规范 的 数据 和 实现 丰富 的 语 
义 表 达 。 为 此 ,如 何 对 网 络 中 “一 带 一 路 "投资 相关 信 
息 资源 进行 梳理 ,如 何 提升 各 种 信息 资源 的 利用 率 , 为 
用 户 提供 准确 信息 并 减少 相应 的 查询 时 间 , 便 成 为 当 
前 取 待 解决 的 问题 。 

自动 问答 系统 能 接受 人 们 提出 的 自然 语言 问题 ， 
在 知识 库 中 查找 相应 管 案 , 并 返回 给 用 户 ”。 与 传统 


搜索 引擎 相 比 ,自动 问答 系统 增强 了 用 户 获取 知识 的 
便捷 性 ,节省 了 信息 筛选 时 间 ,也 提高 了 信息 质量 。 传 
统 的 自动 问答 系统 大 多 基于 文档 检索 ,使 用 关键 词 或 
模板 匹配 的 方式 查询 答案 ,而 答案 的 数据 来 源 基本 都 
是 非 结 构 化 的 文本 ,在 查询 精度 .问题 推理 .语义 关联 
方面 先天 不 足 。 知 识 图 谱 的 出 现 ,在 一 定 程度 改变 了 
这 种 情况 。 知 识 图 谱 是 以 图 的 形式 表现 客观 世界 中 的 
实体 (概念 、 人 .事物 ) 及 其 之 间 关 系 的 知识 库 握 ,知识 
图 谱 以 三 元 组 作为 表示 形式 。 将 知识 图 谱 技 术 运用 于 
自动 问答 系统 有 助 于 从 海量 文本 信息 中 抽取 结构 化 的 
知识 ,将 不 同 来 源 数 据 进行 融合 ,形成 富 含 语义 关系 的 
知识 网 络 ,可 以 为 问答 系统 提供 高 质量 的 信息 。 通 过 
集成 知识 图 谱 ,问答 系统 的 数据 精度 .数据 关联 性 、 数 
据 结 构 化 水 平 得 到 显著 提升 ,增强 了 问题 语义 和 知识 
语义 的 理解 和 匹配 。 基 于 此 ,构建 一 个 基于 知识 图 谱 
的 “一 带 一 路 "投资 问答 系统 ,在 一 定 程度 上 能 解决 前 
述 信息 获取 过 程 中 所 出 现 的 问题 。 

综 上 ,笔者 试图 提出 一 套 基于 知识 图 谱 的 “一 带 一 
路 "投资 问答 系统 设计 实现 方案 。 文 章 首 先 介绍 了 国 
内 外 问答 系统 的 研究 现状 ,并 进行 简要 评述 ;然后 对 所 
构建 系统 的 设计 思路 和 功能 架构 进行 介绍 ;接着 阐述 
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了 系统 中 关键 技术 的 实现 过 程 ;最 后 对 构建 的 系统 进 
行 实验 以 证 明 系统 的 可 用 性 ,并 对 未 来 工作 进行 展望。 


2 相关 研究 回顾 


依据 回答 范围 不 同 ,自动 问答 系统 可 以 分 为 开放 
域 问答 系统 和 限定 域 问答 系统 两 类 。 开 放 域 问答 系统 
的 问答 并 不 受 具体 领域 的 限制 ,可 以 对 多 个 领域 的 提 
问 进行 回答 ,通常 其 会 利用 Web 数据 资源 宛 余 的 特 
点 ,通过 统计 方法 来 查找 正确 答案 5 。 另 外 ,开放 域 问 
答 系统 用 户 提出 的 问题 相对 简单 ,用 词 也 是 一 些 日 党 
用 语 , 对 用 户 提问 范围 一 般 没有 限制 ,其 答案 主要 来 自 
Web 资源 '” 。 开 放 域 问答 系统 通常 会 使 用 一 些 通用 语 
义 资 源 , 如 WordNet .HowNet .常识 图 谱 CYC 等 ,以 及 基 
所 语义 网 技术 的 关联 数据 (linked data ) ,如 FreeBase、 
Dbfedia 等 " 。 目 前 ,比较 有 代表 性 的 开放 域 问答 系统 
在- 英文 问答 式 检索 系统 Ask Jeeves . 麻 省 理工 学 院 开 

STARTIS 、 多 语系 自动 问答 系统 AnswerBus' ”及 
. 的 Watson00 系统 。 
< 十 限定 域 问答 系统 一 般 只 能 处 理 限定 领域 的 相关 问 
题 > 入 对 于 开放 域 问答 系统 , 它 处 理 的 问题 要 更 专业 也 
更 汉 复 杂 。 其 面向 的 对 象 更 多 是 熟悉 此 领域 的 用 户 
( 虹 阁 域 专家 ) ,他 们 一 般 会 使 用 一 些 领域 术语 来 查 
论 , 浊 反馈 的 答案 质量 要 求 也 比较 高 。 限 定 领域 问 敌 
系统 通常 以 具体 的 目标 和 任务 为 导向 ,这 就 决定 了 其 
名 用 领域 知识 库 ,领域 词典 等 作为 支持 ,这 在 某 些 程度 
上 巡 决 定 了 系统 所 能 回答 问题 的 范围 。 大 部 分 限定 领 
域 间 答 系统 因为 领域 较 窄 ,用户 量 较 小 等 原因 ,获取 和 


建 溪 高 质量 的 语 料 资源 显得 尤为 宝贵 和 重要 。 限 定 域 
问答 系统 经 历 了 长 期 发 展 ,从 20 世纪 60 年 代 基于 结 
构 化 数据 的 问答 系统 ,如 Baseball 和 Lunar” ,到 70 
FE 代 .80 年 代 基于 计算 语言 学 的 问答 系统 ,如 Berkeley 
Unix Consultant'" ,到 90 年 代 基 于 自由 文本 的 问答 系 
统 , 再 到 本 世纪 初出 现 的 基于 常 问 问题 数据 FAQ 的 问 
答 系 统 ,其 研究 成 果 层出不穷 ,技术 有 了 长 足 进步 。 自 
2012 年 谷歌 公司 推出 基于 知识 图 谱 技术 的 搜索 产品 
以 来 ,该 技术 在 人 工 智能 研究 领域 便 得 到 了 广泛 的 应 
用 ,基于 知识 图 谱 的 限定 域 问答 系统 研究 也 成 为 主流 。 

当前 ,生命 科学 .生物 医学 .图书 情报 学 等 诸多 领 
域 都 开展 了 基于 知识 图 谱 的 自动 问答 系统 研究 。M. 
Vargas-Vera 等 开发 了 一 款 名 为 AQUA 的 学 术 领 域 问答 
系统 ,知识 图 谱 技术 在 系统 中 被 用 于 查询 细 化 .问题 推 
理 和 相似 度 计算 ” ;A. Ben-Abacha 等 结合 医学 领域 知 
识 .自然 语言 处 理 技术 和 知识 图 谱 技术 开发 了 MEANS 


全 


医疗 问答 系统 ;A. H. Asiaee 等 开发 了 名 为 OntoN- 
LQA 的 生物 医学 领域 问答 系统 ,该 系统 由 自然 语言 处 
理 、 实 体 识别 .图 谱 匹 配 .语义 关联 和 答案 检索 5 个 主 
要 部 分 构成 "9 ;X. Xie 等 构建 了 《 自然 语言 处 理 》 课 程 
自动 问答 系统 ,该 系统 包含 4 个 处 理 模块 ,基于 图 谱 的 
知识 库 .问题 分 析 模块 .答案 抽取 模块 和 标准 答案 扩展 
模块 '" ;A. Abdi 等 建立 了 一 个 物理 领域 问答 系统 ,该 
系统 采用 了 一 种 基于 语义 和 句法 信息 的 推理 映射 方 
法 ,将 用 户 提问 转化 为 知识 库 查 询 语言 !”] ;A. Agarwal 
等 构建 了 一 个 融合 教育 语义 的 动态 概念 网 络 模型 ,该 
模型 提升 了 教育 领域 问答 系统 EDUQA 的 准确 率 "; 
马 晨 浩 创建 了 甲状 腺 知识 图 谱 , 并 在 此 基础 上 设计 实 
现 了 面向 甲状 腺 诊疗 的 自动 问答 系统 ” ;朝明 宇 等 构 
建 了 原 发 性 肝癌 知识 图 谱 ,实现 了 流水 线 式 的 问答 系 
统 "" ; 杜 泽 宇 等 提出 了 一 套 流 式 的 中 文 知 识 图 谱 自动 
问答 系统 CEQA ,能 够 较 好 地 完成 电 商 领域 商品 咨询 
以 及 统计 推理 等 复杂 问题 ”; 陆 伟 等 根据 武汉 大 学 图 
书馆 的 业务 需求 构建 了 图 书馆 领域 自动 问答 系统 ,该 
系统 引入 了 知识 图 谱 技术 ,并 建立 了 多 源 数 据 融 合 知 
识 库 呈 。 上 述 研 究 从 多 方面 前述 了 基于 知识 图 谱 的 
自动 问答 系统 构建 过 程 , 对 本 研究 有 借鉴 意义 。 

总 的 来 看 ,作为 语义 网 的 支撑 ,知识 图 谱 在 自动 问 
答 领 域 起 着 至 关 重 要 的 作用 ,其 已 成 为 组 织 表达、 管 
理 海量 . 异 构 .动态 数据 的 有 效 方式 “一 带 一 路 ” 倡 
议 作为 我 国 的 一 项 重要 发 展 战略 ,受到 政府 部 门 及 研 
究 机 构 的 重视 ,建设 了 许多 网 站 .平台 和 数据 库 , 如 中 
国 “ 一带 一 路 "网 “一 带 一 路 ”频道 “一 带 一 路 "数据 
库 等 ,这 些 资源 对 指导 企业 投资 <* 一 带 一 路 ”沿线 国家 
具有 重要 价值 。 然 而 ,从 目前 情况 来 看 ,这 些 资源 利用 
率 并 不 高 ,主要 集中 在 文本 层次 利用 ,并 未 深入 到 内 容 
层面 ,服务 目标 单一 ,相关 信息 资源 整合 力度 不 够 。 因 
此 ,通过 将 大 量 有 关 “ 一 带 一 路 ”投资 相关 信息 进行 汇 
总 ,创建 “一 带 一 路 ”投资 知识 图 谱 ,并 在 此 基础 上 设 
计 “ 一 带 一 路 "投资 自动 问答 系统 ,能 帮助 用 户 快速 、 
准确 .充分 地 了 解 相关 知识 ,并 填补 当前 研究 空白 。 


3 ”系统 框架 


实现 基于 知识 图 谱 的 “一 带 一 路 ”投资 问答 系统 ， 
首选 需要 解决 的 是 采集 和 获取 用 于 支持 问答 的 数据 资 
源 , 然 后 对 数据 资源 进行 处 理 和 组 织 , 形 成 问答 语 料 数 
据 ;在 此 基础 上 建立 知识 图 谱 并 构建 知识 库 ; 知 识 库 建 
好 后 ,进一步 对 用 户 输入 的 问题 进行 分 析 处 理 .匹配 查 
询 ,获取 最 终 答 案 。 依 据 此 思路 ,笔者 实现 的 自动 问答 
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系统 可 分 为 3 大 模块 :数据 获取 与 处 理 模块 ,知识 图 谱 
构建 模块 以 及 问题 分 析 与 答案 获取 模块 ,系统 框架 如 
图 1 所 示 : 


| 问题 分 析 与 答案 获取 模块 
问题 预 处 理 


| |[ 9 辣 性 奈 注 | [去 信用 河 | | 实体 识别 


呈 信息 采集 格式 转换 | | 信息 


< 十 

ee ) 

"EE 
S 入 EE 他 


投资 数据 网 络 问答 


投资 数据 库 


图 1 “一 带 一 路 ”投资 问答 系统 框架 


(1 ) 数 据 获 取 与 处 理 模块 。 数 据 获取 与 处 理 模块 
包 轿 的 功能 有 信息 采集 ,格式 转换 ,信息 过 滤 . 信 息 聚 
合 和 问题 聚 类 。 信 息 采 集 是 通过 网 络 疏 虫 和 人 工 方式 
从 各 种 数据 源 采集 和 下 载 “一 带 一 路 "投资 相关 信息 ， 
如 百度 知道 , 知 乎 问答 平台 中 有 关 * 一 带 一 路 "沿线 国 
家 投资 的 问答 数据 、 商 务 部 (中国 对 外 投资 企业 名 
录 》、 商 务 部 《外 商 投资 企业 名 录 》. 中 国 "一 带 一 路 "网 
中 的 《“ 一 带 一 路 "沿线 国家 投资 指南 ) 等 ;格式 转换 是 
将 采集 和 下 载 的 电子 表格 .PDF 文档 转换 为 数据 库 中 
的 数据 表 ;信息 过 滤 是 对 采集 的 宛 余 信息 .噪声 信息 、 
无 关 信息 进行 过 滤 ; 信 息 聚 合 是 将 不 同 来 源 的 信息 进 
行 整合 ,如 《中 国 对 外 投资 企业 名 录 》 里 只 有 对 外 投资 
企业 的 名 称 ,没有 企业 所 属 行业 、 所 属地 区 等 属性 信 
息 ,这 时 可 利用 “ 企 查 查 ”网 的 企业 信息 数据 库 对 《中 
国 对 外 投资 企业 名 录 》 中 的 企业 信息 进行 补 全 和 整合 ; 
问题 聚 类 是 对 百度 知道 . 知 乎 问答 平台 的 问题 进行 聚 
类 ,梳理 和 归纳 网 民 在 这 些 间 答 平台 上 提出 的 “一 带 


路 ”投资 相关 问题 ,为 后 续 划 分 问题 类 别 、 建 立 知识 图 
谱 和 问题 模板 提供 参考 。 

(2) 知识 图 谱 构建 模块 。 知 识 图 谱 构建 模块 采用 
自 上 而 下 的 方法 对 图 谱 进 行 构建 ,包含 的 工作 有 图 谱 
概念 层 构建 .实例 层 构 建 、. 知 识 融 合 及 生成 知识 库 。 概 
念 层 构建 是 对 知识 图 谱 的 “骨架 ”进行 搭建 ,其 将 对 
“一 带 一 路 ”投资 知识 图 谱 涉 及 的 概念 、 术 语 、 关 系 和 
属性 进行 定义 ,明确 图 谱 的 范围 ,规范 图 谱 的 表达 。 概 
念 层 存储 的 是 经 过 提炼 的 知识 ,通常 采用 本 体 库 来 管 
理 , 借 助 本 体 库 对 公理 ,规制 和 约束 条 件 的 支持 能 力 来 
规范 实体 .关系 以 及 实体 的 类 型 和 属性 等 对 象 之 间 的 
联系 。 实 例 层 构建 是 在 概念 层 基础 上 展开 , 对 实 
体 .关系 和 属性 的 抽取 工作 ,其 中 实体 抽取 又 称 之 为 命 
名 实体 识别 ,本 文采 用 基于 规则 和 词典 的 方法 ;关系 抽 
取 负 责 提取 实体 间 的 关联 关系 形成 知识 网 络 , 采 用 基 
于 词典 驱动 的 方法 ; 属性 抽取 是 从 不 同 数据 源 汇集 实 
体 的 属性 信息 ,实现 对 实体 的 完整 勾画 ,抽取 方式 与 关 
系 抽取 相同 。 实 例 抽取 完毕 后 ,还 需 采 用 知识 融合 方 
法 ,对 抽取 结果 进行 组 织 ,以 消除 矛盾 和 歧义 ,具体 技 
术 包 括 :实体 链接 、 知 识 合并 等 。 在 完成 知识 融合 相关 
工作 后 ,事实 便 以 “实体 -关系 -实体 ”或 “实体 - 属 
性 -属性 值 ”的 三 元 组 形式 存储 ,形成 一 个 图 状 知识 
库 。 

(3) 问 题 分 析 与 答案 获取 模块 。 问 题 分 析 与 答案 
获取 模块 包含 的 功能 有 问题 预 处 理 .问题 分 类 ,模板 匹 
配 和 答案 查询 。 问 题 预 处 理 功能 是 对 交互 界面 中 用 户 
输入 的 自然 语言 问题 进行 处 理 , 包 括 分 词 .词性 标注 、 
去 停 用 词 和 实体 识别 。 问 题 分 类 是 依据 数据 获取 与 处 
理 阶 段 划 分 的 问题 类 别 ,利用 文本 自动 分 类 技术 ,将 处 
理 好 的 用 户 提 问 划 分 到 相应 类 别 中 去 ,这 能 有 效 减少 
候选 答案 的 空间 ,提高 系统 返回 正确 答案 的 概率 。 问 
题 分 类 完成 后 需要 对 问题 进行 理解 ,本 文采 用 基于 模 
板 匹配 的 方法 局: 。 问 题 模板 根据 问 句 类 别 中 的 常见 
问题 设计 ,其 作用 是 将 用 户 提问 映射 为 相应 的 数据 库 
查询 语言 。 模 板 匹 配 过 程 是 通过 相似 度 算法 计算 用 户 
提问 与 预先 准备 好 的 问 句 模板 之 间 的 相似 度 值 , 当 相 
似 度 值 超过 某 一 阔 值 , 则 认为 匹配 成 功 。 另 外 , 当 出 现 
多 个 模板 相似 度 值 超过 阔 值 时 , 则 使 用 相似 度 值 最 高 
的 模板 。 模 板 匹 配 完 毕 后 ,根据 识别 出 的 实体 名 及 关 
系 类 型 ,理解 问题 语义 ,在 构建 好 的 “一 带 一 路 ”投资 
知识 图 谱 中 查询 对 应 的 实体 或 属性 ,将 查询 结果 生成 
符合 对 话 逻 辑 且 语法 通顺 的 答案 返回 给 用 户 。 
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4 系统 主要 实现 过 程 


4.1 数据 获取 与 处 理 
4.1.1 问答 数据 获取 
在 构建 < 一 带 一 路 "投资 问答 系统 之 前 ,首先 需要 
收集 领域 知识 ,笔者 主要 采用 网 络 息 虫 和 人 工 下 载 方 
式 。 其 中 ,网 络 息 虫 模块 是 利用 HTML 解析 器 Jsoup， 
集成 HTTPClient 编程 工具 包 , 通过 正则 表达 式 对 页 面 
中 的 数据 进行 采集 。 采 集 内 容 包 括 :商务 部 《中 国 对 外 
投资 企业 名 录 》( http://femhzs. mofcom. gov. cn/fecpm- 
vc/pages/fem/CorpJWList. html ) 数 据 25 034 条 ,商务 部 
《外 商 投 资 企 业 和 名录》( http://www. fdi. gov. cn/ 
1800000121_10000207_8. html ) 数据 3 180 条 。 问 答 数 
担 则 是 通过 构建 “国家 名 + 投资 " 的 关键 词 检索 式 ,如 
“新 加 坡 + 投资 ", 对 百度 知道 和 知 乎 网 站 中 与 "一带 
名 "沿线 国家 投资 相关 的 间 答 对 进行 候 取 ,共计 
3 上 E335 对 。 另 外 ,为 了 保证 知识 的 权威 性 ,笔者 还 通过 
/CD 方式 对 中 国 “ 一 带 一 路 "网 中 的 《“ 一 带 一 路 "沿线 
国 沼 投资 指南 》( hitps://www. yidaiyilu. gov cn/info/ 
i jsp? cat_id = 10148 ) 进行 下 载 。 需 要 说 明 的 是 ， 
礁 菇 统 所 涉及 的 “一 带 一 路 "沿线 国家 共 64 个 ,依据 北 
SR 学 “一 带 一 路 "数据 分 析 平台 的 界定 方案 划分 ( 见 
y59 。 上 述 获取 的 数据 及 下 载 的 投资 指南 覆盖 了 
个 国家 。 最终, 本 系统 构建 的 “一 带 一 路 "投资 相 


le 


“一 带 一 路 ”沿线 64 个 国家 及 区 域 分 布 


区 域 。” 数量 (个 ) 国家 名 称 
OO 新 加 坡 、 印 度 尼 西亚 马来西亚、 泰国 越南、 非 律 
杂 博 i 11 | es 

亚 宾 柬埔寨 . 倘 向 .老挝 文 莱 ,东帝汶 

印度 .巴基斯坦 ,斯里兰卡 .孟加拉 国 .尼泊尔 .马尔 
南亚 7 代表 不 有 


阿联酋. 阿塞拜疆 科威特、 土耳其 .卡塔尔 .阿曼 、 
西亚 .北非 18 黎巴嫩 沙特 阿拉 伯 、` 巴 林 、 以 色 列 .也 门 共和 国 、 

及 伊朗、 约旦、 叙利亚 伊拉克、 阿富汗 ` 巴 勒 

波兰 ,俄罗斯 阿尔巴尼亚 格鲁吉亚、 爱沙尼亚、5 
陶 宛 、 亚 美 尼 亚 .斯洛文尼亚 、 保 加 利 亚 、 捷 克 共 和 
中 东欧 22 国 \ 匈 牙 利 马其顿 ,塞尔维亚 罗马尼亚 、 乌 克 兰 、 
折 洛 伐 克 克罗地亚、 摩尔 多 瓦 、 白 俄罗斯 、 拉 脱 维 
亚 . 波 黑 . 黑 山 
哈萨克 斯 坦 吉尔吉斯 斯 坦 .土库曼 斯 坦 .塔吉克 斯 
昌 . 乌 效 别 克 斯 坦 .蒙古 


Kr 六 第 


并 


中 亚 及 蒙 十。 6 


4.1.2 问答 数据 处 理 

在 获取 问答 数据 后 ,还 需要 对 数据 进行 处 理 , 包 
括 :将 各 国 的 投资 指南 PDF 转换 为 文本 文档 进行 存储 
(主要 通过 PDFBox 开源 软件 包 进 行 处 理 ) ;将 《中 国 对 
外 投资 企业 名 录 》 数 据 和 《外 商 投 资 企 业 名 录 》 数 据 整 


合 , 形 成 “一 带 一 路 "企业 投资 数据 库 , 并 利用 网 络 扑 
虫 采 集 “ 企 查 查 ”网 站 数据 ,对 数据 库 中 的 企业 属性 信 
息 进 行 补 全 ,如 企业 所 在 地 区 行业、 类 型 地址, 经营 
范围 等 。 另 外 ,作为 后 续 知 识 图 谱 和 问题 模板 构建 的 
参考 ,还 需 对 采集 的 百度 知道 和 知 乎 问答 数据 进行 过 
滤 和 聚 类 。 过 滤 主 要 是 剔除 与 "一带 一 路 "投资 主题 
无 关 的 问题 .对 重复 的 问题 去 重 以 及 删除 空 值 数据 。 
聚 类 则 是 利用 聚 类 算法 对 问题 聚 类 ,考虑 到 聚 类 类 别 
数 的 自动 划分 以 及 传统 空间 向 量 模型 特征 高 维 稀 下 、 
对 语义 关系 缺乏 考虑 的 问题 ,笔者 采用 自动 划分 聚 类 
数 的 聚 类 算法 DBSCAN” , 特征 提取 方法 采用 
Word2Vec 结合 TF-IDF 进行 文本 表示 局 ,其 中 DB- 
SCAN 算法 的 eps 值 取 值 为 0.5 ,训练 Word2Vec 模型 的 
语 料 是 维基 百科 中 文 语 料 加 上 百度 知道 和 知 乎 上 采集 
的 “一 带 一 路 ”投资 问答 语 料 共 1.2GB ,采用 Skip-Cram 
模型 训练 ,单词 维 数 300 ,训练 窗口 10。 自 动 聚 类 得 到 
2 240 个 问题 类 ,通过 人 工 审核 .筛选 归并 ,最终 保留 问 
题 类 83 个 , 共 10 602 个 问答 对 。 另 外 ,为 了 确保 所 有 
问题 回答 的 准确 性 ,对 于 百度 知道 和 知 乎 问题 的 回答 
数据 ,项 目 组 还 招募 了 5 名 研究 生 对 问题 回答 进行 审 
核 ,为 了 确保 答案 的 准确 性 ,学 生 2 人 一 组 ,对 答案 进 
行 筛选 。 首 先 如 果 点 赞 数 最 多 ,回答 时 间 与 系统 构建 
时 间 最 接近 , 则 作为 准确 答案 ;如 遇 到 点 赞 数 不 高 ,但 
回答 时 间 与 系统 构建 时 间 最 接近 的 情况 ,由 学 生 对 候 
选 答案 进行 比 对 (点 赞 数 最 多 的 和 回答 时 间 最 接近 的 
答案 比 对 ) ,最 后 3 人 投票 ,票数 最 高 的 答案 作为 候选 
答案 。 
4.2 ”知识 图 谱 构 建 

本 文 的 知识 图 谱 采 用 自 顶 向 下 的 方法 构建 ,依次 
为 图 谱 概 念 层 构建 和 实例 层 构建 ,概念 层 主 要 是 结合 
前 述 整 合 的 各 类 数据 ,对 知识 图 谱 涉 及 的 术语 .概念 及 
关系 展开 抽取 和 定义 ,明确 图 谱 的 整体 范围 ,实例 层 则 
是 在 概念 层 的 约束 下 填充 数据 ,最 终 形成 结构 化 的 知 
识 图 谱 。 以 下 将 给 出 “一 带 一 路 ”投资 概念 层 、 实 例 层 
的 具体 构建 方法 和 存储 方式 。 
4.2.1 概念 层 构 建 

“一 带 一 路 "投资 知识 图 谱 的 概念 层 设计 是 在 领 
域 专家 的 帮助 下 ,结合 《“ 一 带 一 路 ”沿线 国家 投资 指 
南 》、 百 度 知 道 、 知 乎 问答 《中 国 对 外 投资 企业 名 录 》 
等 相关 知识 构建 而 成 。 为 了 满足 用 户 的 提问 需求 , 笔 
者 构建 了 “一 带 一 路 ”沿线 国家 投资 图 谱 概念 层 及 “一 
带 一 路 ”企业 投资 图 谱 概 念 层 , 主要 工作 包括 :领域 概 
念 归纳 和 领域 关系 及 约束 定义 。 
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李纲 . 基于 知识 图 谱 的 “一 带 一 路 ”投资 问答 系统 构建 [J. 图 书 情报 工作 ,2020,64(12) :95 -105. 


(1) 领 域 概念 归纳 。“ 一 带 一 路 "沿线 国家 投资 图 
谱 概 念 层 包括 :国家 基本 信息 、 投 资 基 本 信息 、 投 资 法 
规 政策 .投资 手续 办 理 ,投资 注意 事项 .遭遇 困难 求助 6 
个 核心 概念 。 其 中 ,国家 基本 信息 是 指 被 投资 国 的 国家 
概况 ,包括 :国家 历史 政治 环境 ,地 理 环境 ,社会 文化 4 
个 子 概念 ;投资 基本 信息 主要 反映 被 投资 国 的 投资 洪 
力 ,包括 :经 济 表现 .国内 市 场 . 基 础 设施 ,对 外 经 贸 、 金 
融 环境 ,证券 市 场 .商务 成 本 7 个 子 概念 ;投资 法 规 政策 
是 指 被 投资 国家 的 相关 投资 法 规 政策 ,包括 :对 外 贸易 
法 规 政策 外国 投 资 市 场 准 入 ,企业 税收 规定 、 外 国 投资 
优惠 ,特殊 经 济 区 .劳动 就 业 规定 、 外 企 土 地 投资 ,外企 
证 券 交 易 ,环境 保护 法 律 \ 反 商业 贿赂 法 规 . 外 企 承 包工 


法 及 流程 ,包括 :投资 注册 企业 、 承 揽 工 程 程序 .申请 专 
利 \ 注 册 商 标 、 报 税 手续 、 工 作证 办 理 、 投 资 咨询 机 构 7 
个 子 概念 ;投资 注意 事项 是 指 在 被 投资 国 进 行 投资 时 需 
要 注意 的 情况 ,包括 :贸易 注意 事项 .承包 工程 注意 事 
项 劳务 合作 注意 事项 \ 需 防范 的 风险 和 其 他 注意 事项 5 
个 子 概 念 ;遭遇 困难 求助 则 是 指 在 被 投资 国 遭 遇 困 难 后 
的 求助 方式 ,包括 :寻求 法 律 保 护 . 寻 求 政府 帮助 应急 
预案 和 中 国 驻 当 地 使 馆 保护 4 个 子 概念 。 此 外 ,为 了 明 
确 问题 ,使 概念 更 加 具体 ,在 一 些 3 级 子 概念 下 ,还 进 一 
步 划 分 了 4 级 子 概念 ,如 社会 文化 3 级 子 概念 就 进一步 
划分 了 民族 ,语言 .宗教 习俗 等 4 级 子 概念 。 最 终 ， 一 
带 一 路 "沿线 国家 投资 图 谱 概念 层 共 构建 了 6 个 核心 概 


程 .知识 产权 法 规 、 投 资 合作 法 律 .商务 纠纷 14 个 子 概 | 念 ,41 个 3 级 子 概念 和 97 个 4 级 子 概念 。“ 一 带 一 路 ” 
念 5 投 资 手续 办 理 主要 反映 被 投资 国 投资 手续 的 办 理 方 | 沿线 国家 投资 图 谱 如 图 2 所 示 ; 
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2 “一 带 一 路 ”沿线 国家 投资 图 谱 


相对 于 沿线 国家 投资 图 谱 , “一带 一 路 ”企业 投资 
图 谱 相 对 人 简单 ,主要 服务 于 “一 带 一 路 "企业 投资 情况 
问答 ,其 包括 :投资 国 、 所 属国 \ 行 业 、 类 型 .地 址 、 注 册 


资本 、 实 缴 资本 经 营 范 围 8 个 2 级 子 概念 ,及 所 属地 
区 和 投资 地 区 2 个 3 级 子 概念 。 
图 谱 如 图 3 所 示 : 


“一 带 一 路 "企业 投资 


疼 注册 资本 


3 “一 带 一 路 ”企业 投资 图 谱 
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(2 ) 领域 关系 及 约束 定义 。 关 系 是 概念 层 的 核心 
基本 要 素 , 它 描述 了 领域 中 的 概念 和 实例 之 间 的 作用 
关系 ,决定 了 知识 图 谱 的 丰富 程度 。 笔 者 主要 通过 2 
种 方法 来 定义 概念 之 间 的 关系 ,一 是 参考 质量 较 高 的 
数据 源 ,如 《 “一带 一 路 "沿线 国家 投资 指南 》; 二 是 从 
关系 数据 库 表 中 抽取 现成 的 关系 模式 。 如 《中 国 对 外 
投资 企业 名 录 》。 最 终 确定 了 6 大 类 关系 ,如 表 2 所 
不 : 


表 2 概念 层 图 谱 实 体 关系 类 别 


关系 类 别 含义 举例 
同 义 关系 相同 或 相似 表达 < 印度尼西亚, 同义词 ,印尼 > 
属性 关系 。 实体 的 属性 和 属性 值 。 < 恩 盛 电器 ,注册 资本 ,9000 万 > 
层次 关系 。 ”根据 范围 确定 概念 。 ”< 国家 基本 信息 ,包含 ,社会 文化 > 
及 子 概念 
整 本 部 分 关系 实体 由 整体 和 部 分 构成 < 电信 ,构成 ,基础 设施 > 
到 次 关系 实体 的 投资 行为 < 美 珍 香 ,投资 ,中 国 > 
GR 关系 实体 的 隶属 关系 < 美 珍 香 , 届 于 ,新 加 坡 > 


EN 
1 实例 层 构建 
中 概念 层 构建 完成 后 , 便 可 在 其 基础 上 构建 实例 层 。 
突出 层 构建 任务 主要 是 从 前 述 获取 和 处 理 好 的 记录 中 
捕 现 与 概念 层 相 匹配 的 “一 带 一 路 "投资 知识 。 这 一 
过 测 归 要 对 结构 化 数据 进行 处 理 也 要 对 半 结构 化 和 非 
绩 构 化 数据 进行 处 理 。 实 例 层 构建 的 目标 就 是 从 不 同 
来 源 的 记录 中 提取 “一 带 一 路 "投资 实体 及 关系 ,并 将 
其 委 示 为 三 元 组 的 形式 。 具 体 来 说 ,实例 层 构建 的 工 
作 乔 括 :实体 抽取 关系 抽取 和 属性 抽取 。 
.三 (1) 实体 抽取 。 根 据 概念 层 确定 的 概念 ,从 数据 
记 吨 中 抽取 相应 的 “一 带 一 路 "国家 名 称 ` 企 业 名 称 
等 构建 相应 的 实体 节点 ,形成 概念 到 实体 间 的 映射。 
如 泰国 .越南 .新加坡 等 国家 实体 ,以 及 美 珍 香 .亚太 纸 
业 .中 巨 财富 等 企业 实体 。 

(2) 关 系 抽取 。 根 据 概念 层 确定 的 关系 构建 实体 
间 的 关系 ,并 根据 概念 间 的 关系 名 称 确定 实体 间 的 关 
系 名 称 。 如 :在 概念 层 企业 和 国家 之 间 存在 投资 关系 ， 
依据 《中 国 对 外 投资 企业 名 录 》, 企 业 万 达 国贸 集团 与 
国家 新 加 坡 存在 投资 关系 , 则 在 这 两 个 实例 之 间 添 加 
投资 关系 。 同 时 。 国 家 基本 信息 概念 包含 社会 文化 子 
概念 , 则 具体 到 实例 ,新 加 坡 国家 基本 信息 与 新 加 坡 社 
会 文化 就 是 包含 关系 。 另 外 ,在 概念 层 中 定义 了 同 义 
关系 , 则 将 具有 同 义 关 系 的 实体 与 其 别称 进行 关联 。 

(3) 属 性 抽取 。“ 一 带 一 路 "投资 知识 图 谱 的 属性 
抽取 主要 是 依据 实体 所 对 应 的 概念 层 含 有 的 属性 , 抽 


质量 的 数据 源 , 属 性 抽取 即 可 直接 借助 这 些 资料 ,获取 
实体 的 属性 及 属性 值 。 如 :新 加 坡 投资 指南 中 就 具体 
介绍 了 新 加 坡 的 习俗 ,因此 ,这 部 分 内 容 就 可 直接 作为 
新 加 坡 习俗 的 属性 值 。 又 如 :在 "一带 一 路 "企业 投资 
数据 库 中 ,美的 集团 具有 属性 “行业 ” ,其 属性 值 为 “ 制 
造 业 ”, 则 可 构建 < 美的 集团 ,行业 ,制造 业 > 的 “实体 
-属性 - 属性 值 " 三 元 组 。 表 3 给 出 了 概念 层 到 实例 
层 的 部 分 映射 : 
表 3 “一 带 一 路 ”沿线 国家 投资 图 谱 概念 
层 到 实例 层 的 映射 ( 部 分 ) 


概念 层 实例 层 
国家 国名 印度 尼 西 亚 
别名 印尼 
国家 基本 信息 ”印度 尼 西 ] 


基本 信息 包括 :国家 历史 、 社 会 文化 ,地 理 环 

境 政治 环境 4 个 方面 
政治 环境 印度 尼 西 亚 政治 环境 包括 :政治 制度 、 主 要 党派 .政府 机 
构 、 外 交 关 系 4 个 方面 
【政治 制度 ] 实 行 总 统制 ,总 统 既 是 国家 元 首 ,也 是 政府 首 
脑 ,同时 掌管 三 军 。 总 统 、 副 总 统 均 由 全 民 直 选 产生 ,任期 
5 年 ,总 统 可 连任 一 次 。 现 任 总 统 佐 科 ' 维 多 多 ,2014 年 
10 月 通过 直选 担任 新 一 届 总 统 , 副 总 统 为 优 素 夫 … 卡拉 ， 
任期 至 2019 年 。 本 届 内 阁 于 2014 年 10 月 组 建 ,2015 年 
8 月 改组 ,2016 年 7 月 再 次 改组 。 现任 阁员 34 人 ,任期 
至 2019 年 …… 


政治 制度 


4.2.3 知识 存储 

笔者 采用 当前 比较 流行 的 开源 图 数据 库 Neo4j 进 
行 知识 图 谱 的 存储 。Neo4j 用 java 语言 实现 ,以 网 络 的 
方式 对 结构 化 数据 进行 存储 ,与 关系 数据 库 相 比 ， 
Neo4j 能 很 好 地 解决 数据 价值 密度 低 、 数 据 量 大 的 问 
题 ,其 提供 了 完善 的 图 查询 语言 , 文 持 各 种 图 挖 气 算 
法 。Neo4j 提供 Cypher 语句 来 导入 和 查询 数据 。 对 于 
大 规模 数据 ,Neo4j 还 提供 了 neo4j-import 工具 ,可 以 快 
速 地 将 大 量 实体 和 关系 导入 图 数据 库 。 笔 者 将 构建 的 
“一 带 一 路 ”投资 相关 三 元 组 通过 Cypher CREATE 语 
名 、Cypher LOAD CSYV 语句 以 及 neo4j-import 工具 导入 
Neo4j 数据 库 。 图 4 展示 了 Neo4j 数据 库 中 的 “一 带 一 
路 "投资 知识 图 谱 的 部 分 三 元 组 关系 。 
4.3 问题 分 析 与 答案 获取 

完成 “一 带 一 路 ”知识 图 谱 的 构建 和 存储 , 便 可 开 
展 问题 分 析 与 答案 获取 方面 的 工作 。 此 部 分 的 内 容 
有 :对 用 户 输入 的 自然 语言 问题 进行 预 处 理 , 对 问题 进 
行 分 类 ,对 问题 进行 模板 匹配 得 到 计算 机 查询 语句 ,在 
知识 图 谱 中 展开 答案 查询 。 
4.3.1 问题 预 处 理 

问题 预 处 理 主要 是 对 用 户 提 出 的 自然 语言 问题 进 


取 属性 值 。《“ 一 带 一 路 ”沿线 国家 投资 指南 》 作 为 高 


行 分 词 .词性 标注 .去 停 用 词 和 实体 识别 。 笔 者 主要 采 
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Company(32) 
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CD CID El 


Industry(2) 


belong(31) 


Displaying 40 nodes, 94 relationships. 


图 4 


04. 


用 anLP 开源 软件 包 ( https://github. com/hankes/ 

P) 进行 分 词 ,该 软件 包含 条 件 随机 场 CRF 分 词 ， 
请 只 标注 和 命名 实体 识别 功能 。 同 时 ,还 构建 了 一 个 
由 糯 家 别名 和 “一 带 一 路 "企业 名 录 组 成 的 自 定义 词 
瞻 扫 提高 分 词 和 命名 实体 识别 的 准确 性 。 去 停 用 词 
主 直 是 在 分 词 后 吻 除 没什么 实际 意义 的 词语 ,包括 : 语 
气 秽 词 .副词 .介词 .连接 词 ,如 :的 ,在 . 咯 等 。 用 户 输 
7 然 语 言 问题 在 经 过 问题 预 处 理 以 后 ,在 系统 后 
台 将 被 抽象 化 ,以 备 后 续 分 类 和 模板 匹配 。 表 4 是 问 
题 预 处 理 的 输入 输出 结果 范例 : 


hes > 


4 
(A 
托 ~, 有 -一 个 
< ~N 


(全 


de 肢 


“一 带 一 路 ”投资 知识 图 谱 部 分 三 元 组 关系 


经 过 问题 预 处 理 后 ,需要 将 预 处 理 的 结果 自动 划 
分 到 预先 定义 好 的 问题 类 别 中 去 。 在 自动 问答 系统 中 
对 问题 进行 分 类 ,一 方面 可 以 有 效 地 减少 候选 答案 的 
空间 ,提高 系统 返回 正确 答案 的 准确 性 ; 另 一 方面 , 通 
过 问题 分 类 ,可 以 根据 不 同 的 问题 采取 不 同 的 答案 选 
择 策略 。 笔 者 结合 4.1.2 节 整 理 好 的 百度 和 知 乎 问答 
及 《 “一带 一 路 ”沿线 国家 投资 指南 》, 将 “一 带 一 路 ” 投 
资 领域 常 问 问题 分 为 6 个 类 别 ,分 别 是 事实 类 问题 方 
法 类 问题 ,列表 类 问题 .计数 型 问题 .判断 类 问题 和 其 
他 类 问题 。 事 实 类 问题 主要 回答 "是 什么 ” ;方法 类 问 


表 4 问题 预 处 理 的 输入 输出 结果 范例 题 主要 回答 "怎么 办 ” ;列表 类 问题 主要 是 对 数据 库 进 
和 户 输入 的 自然 语言 问 名 经 过 问题 预 处 理 后 的 问 名 行 查询 ;计数 型 问题 是 对 符合 提问 条 件 的 数据 进行 统 
新 加 坡 是 个 什么 样 的 国家 ? [Seounty1] 是 个 什么 样 国家 计 ; 判 断 类 问题 主要 是 肯定 或 否定 回答 ;其 他 类 问题 是 
在 新 加 坡 投资 的 中 国企 业 有 哪些 ? [$ counnyl] 投资 [$ counny2] 企业 有 哪些 不 属于 上 述 5 类 的 问题 ,每 类 问题 都 有 比较 典型 的 特 
美 珍 香 在 哪些 国家 进行 了 投资 [$ enterprisel ] 哪些 国家 进行 投资 江 A SN 8 二 
= 一 一 征 词 ,对 分 类 有 一 定 指导 意义 ,详细 分 类 如 表 5 所 示 : 
4.3.2 问题 分 类 
表 5 “一 带 一 路 ”投资 相关 问题 分 类 
序号 问 句 类 型 范例 抽象 化 范例 
1 事实 类 问题 新 加 坡 的 历史 。 L$ county1] 历史 
2 方法 类 问题 在 新 加 坡 注册 企业 如 何 办 理 相 关 手 续 ? [$countryl ] 注册 企业 如 何 办 理 相关 手续 
3 列表 类 问题 投资 新 加 坡 的 中 国企 业 有 哪些 ? 投资 [$ countyl1] [$country2] 企业 有 哪些 
4 计数 型 问题 投资 新 加 坡 的 中 国企 业 有 多 少 ? 投资 [$ countyl1] [S$ country2] 企业 有 多 少 
5 判断 类 问题 在 新 加 坡 投资 房产 好 不 好 ? [$ countryl ] 投资 房产 好 不 好 
6 其 他 问题 在 新 加 坡 投资 应 该 注意 什么 ? [S$ countryl] 投资 应 该 注意 什么 
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问题 类 别 确定 后 ,笔者 将 各 类 别 下 的 问题 转换 成 
抽象 化 范例 并 对 其 进行 去 重 ( 见 表 5 ) ,最 终 参 与 文本 
自动 分 类 的 抽象 化 范例 为 1 853 个 。 自 动 分 类 算法 为 
SVM ,特征 提取 算法 与 问题 聚 类 中 所 用 的 算法 一 样 , 采 
用 Word2Vec 结合 TF-IDF 进行 文本 表示 。 利 用 准 
确 率 、 召 回 率 和 下 -测度 值 对 自动 分 类 结果 进行 测评 ， 
测评 结果 如 表 6 所 示 : 

表 6 文本 自动 分 类 的 准确 率 、 召 回 率 和 下 -测度 什 
名 称 准确 率 召回 率 


F -测度 值 


公式 = 于 x100% 
公式 ? Gb 和 


r= x100% F-Measure = 

公式 中 a 为 分 类 正确 的 样本 数据 ,b 为 错误 的 划 
分 到 该 类 别 的 样本 数据 ,e 为 属于 该 类 但 未 被 区 分 出 
来 的 样本 数据 ,p 为 准确 率 ,r 为 召回 率 ,f-Measure 为 下 
测度 值 。 自 动 分 类 结果 如 表 7 所 示 : 


CN 表 7 问题 自动 分 类 结果 

© #4 准确 率 召回 率 F -测度 什 

忆 下 实 类 问题 88.66 89.20 88.93 
91.59 92.37 91.98 
91.24 87.47 89.32 
96.57 96.51 96.53 
92.56 93.22 92. 89 
87.86 88.34 88.10 


得 后 最 高 了 - 测度 值 为 96. 53% ,平均 F -测度 值 为 
91>29% ,具有 一 定 效 果 , 能 满足 实际 应 用 需要 。 
4 玉 33 ”问题 模板 匹配 
“在 对 间 题 进行 分 类 后 , 则 要 将 用 户 输入 的 问题 转 
化 为 对 应 的 模板 ,以 便 后 续 答案 查询 。 具 体 来 说 ,问题 
模板 匹配 流程 包括 :@D 针 对 常见 问题 设置 相应 的 模板 
集 ;@ 将 用 户 输入 的 自然 语言 问题 抽象 化 并 与 模板 集 
进行 相似 度 匹 配 ,选择 相似 度 最 高 的 模板 。 
(1) 问题 模板 设置 。 根 据 问题 中 包含 的 实体 数量 

和 实体 类 别 ,针对 每 一 种 类 型 和 每 一 种 情况 设计 了 一 
个 包含 6 个 类 别 .2 个 层次 的 具有 一 定 宛 余 性 的 问题 
模板 集 。 其 中 ,6 个 类 别 为 4.3.2 节 问 题 分 类 中 划分 的 
间 句 类 型 ,2 个 层次 为 主 层次 和 附属 层次 , 主 层次 模板 
直接 与 图 数据 库 Neo4j 的 Cypher 查询 语句 对 应 ,其 在 


个 附属 层次 的 模板 集 。 模 板 集 范例 如 表 8 所 示 : 
表 8 问题 模板 范例 
间 句 。 ”类 型 。 主 层次 模板 附属 层次 模板 


新 加 坡 的 ”事实 类 [$ country1] [$ counbyl] 这 个 国家 怎么 样 
国家 概况 。 问题 国家 概况 


[$countryl ] 国家 简介 
简单 介绍 [$ countryl1 ] 大 致 情况 
[$ countryl] 是 个 什么 样 国家 
告诉 我 [$countryl ] 国家 情况 


(2) 问 题 模板 相似 度 计算 。 问 题 模板 相似 度 计算 
是 将 用 户 输入 的 自然 语言 问 句 抽象 化 和 自动 分 类 后 ， 
计算 处 理 好 的 用 户 问 句 与 模板 集 内 模板 的 相似 度 。 对 
于 相似 度 计算 方法 ,首先 采用 的 是 Word2Vec 和 TF- 
IDF 相 结合 的 方法 来 将 问 句 转换 成 向 量 ” ,然后 利用 
余弦 相似 度 ( Cosine) 算 法 ”计算 用 户 问 句 向 量 与 模板 
向 量 的 相似 度 ,经 过 多 次 试验 ,笔者 认为 问 句 与 模板 相 
似 度 值 大 于 0.75 时 ,该 模板 选 定 为 用 户 提问 问题 模 
板 , 当 同时 出 现 多 套 模板 与 问 句 相似 度 值 大 于 0. 75 
时 , 取 相 似 度 值 最 大 的 模板 作为 问题 模板 。 
4.3.4 答案 查询 

程序 得 到 问题 模板 后 ,利用 问题 模板 对 应 的 Cy- 
pher 语句 ,结合 识别 出 的 实体 和 关系 ,在 图 数据 库 中 查 
询 答案 ,并 返回 给 用 户 。 用 于 查询 具有 特定 关系 的 相 
关 实 体 的 Cypher 模板 如 下 : Macth (a)-[: Relation- 
Namej-(b) where b. name = “ EntityName’ return a. 
name。 其 中 ,EntityName 和 RelationName 用 4.3.1 在 问 
句 预 处 理 中 识别 出 的 实体 名 和 对 应 的 关系 替换 。 例 
如 :对 于 问题 “投资 新 加 坡 的 国内 企业 有 了 哪些?” ,在 问 
题 预 处 理 后 首先 识别 出 实体 名 “新 加 坡 ”, 然 后 匹配 模 


板 得 到 该 问题 对 应 的 关系 为 投资 (investment) ,然后 将 
实体 名 和 关系 舰 套 入 Cypher 语句 ,查询 得 到 答案 。 具 
体 范例 如 表 9 所 示 : 
表 9 答案 查询 范例 
间 句 Cypher 语言 查询 结果 
投资 新 加 。 Match (nl: Company )-[ :investment ]- “浙江 物产 国际 
坡 的 国内 (n2:Country) where n2. cname = “新 加 贸易 有 限 公 司 ” 
企业 有 了 哪 ” 坡 ”return nl. ename “浙江 富 治 集团 
些 ? 有 限 公司 “南山 
集团 有 限 公 司 ” 


S 实验 与 结果 分 析 


用 户 提问 中 出 现 频 次 最 多 ;附属 层次 模板 与 主 层次 模 
板 关联 ,其 代表 的 语义 意义 与 主 层次 模板 的 语义 意义 
一 致 ,其 建立 的 目的 是 为 了 提升 系统 返回 答案 的 召回 
率 。 最 终 , 本 文 构造 了 一 个 包含 103 个 主 层次 、1 750 


为 了 测试 "一 带 一 路 "投资 问答 系统 的 准确 性 , 笔 
者 依据 4.3.2 问题 分 类 ,设计 了 6 类 每 类 30 条 共 180 
条 与 "一带 一 路 "投资 相关 的 问题 ,对 系统 返回 的 答案 


102 


进行 测评 ,以 验证 问答 系统 的 性 能 。 答 案 正 确 率 由 得 
到 正确 答案 的 测试 问 句 数量 与 总 测试 问 句 数量 的 比值 
计算 得 出 ,公式 如 下 : 


y= x100% 公式 (1) 
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式 中 7 为 答案 正确 率 ,a 为 得 到 正确 答案 的 测试 
问 句 数量 ,e 为 总 测试 问 句 数量 

具体 系统 运行 过 程 与 实验 结果 详 见 图 5 和 表 10 
所 示 : 


| 


(Government Proc 
任 ， 以 及 对 政府 共 4 


1 


钛 况 .并 没有 面 申 


列表 类 问题 
计数 型 问题 
判断 类 问题 
他 问题 


测试 问 句 数 /条 
30 
30 
30 
30 
30 
30 


管 案 正 确 数 /条 正确 率 /% 


25 83.3 
27 90.0 
23 76.7 
24 80.0 
26 86.7 
21 70.0 


从 实验 结果 中 可 以 看 到 ,系统 平均 回答 准确 率 为 
81.1% , 绝 大 多 数 问题 可 以 被 系统 正确 理解 并 提供 准 
确 答案 。 尽 管 有 些 问 题 使 
述 ,但 是 由 于 本 系统 模板 具有 元 余 性 ,在 一 定 程度 上 提 


用 了 与 系统 模板 不 一 致 的 表 


高 了 答案 的 召回 率 。 从 各 类 问题 的 回答 准确 率 来 看 ， 
准确 率 最 高 的 为 方法 类 问题 ,最低 的 为 其 他 类 问题 , 剩 
下 几 类 问题 的 准确 率 介 于 方法 类 问题 和 其 他 类 问题 之 
间 。 对 返回 错误 答案 的 问题 进行 分 析 , 发 现 本 系统 的 
语义 理解 功能 还 有 待 进 一 步 提升 ,例如 : "有 多 少 中 
企业 在 新 加 坡 投 资 ?” 和 “在 新 加 坡 投 资 的 中 国企 业 有 
多 少 ?" 这 两 个 问题 表达 的 是 一 样 的 意思 ,但 是 系统 在 
分 析 这 两 条 问题 时 却 分 不 清 是 “在 中 国 投资 的 新 加 坡 
企业 "还 是 “在 新 加 坡 投资 的 中 国企 业 ” ,实体 虽 然 抽 
取 正 确 , 但 实体 在 语句 内 出 现 的 顺序 一 旦 颠倒 ,系统 往 
往 就 会 返回 错误 答案 。 男 外 , 随 着 问题 模板 的 不 断 增 
多 ,在 文本 分 类 过 程 中 ,事实 类 问题 和 其 他 类 问题 易 出 


了 
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现 混淆 ,也 会 造成 答案 匹配 错误 。 在 后 续 研究 中 ,笔者 
将 考虑 进一步 优化 系统 的 各 部 分 模块 提高 系统 的 准确 
率 ,包括 :中 加 入 依存 句法 分 析 技 术 ,深度 学 习 技 术 提 
升 系统 对 问题 的 理解 能 力 ;@ 进 一 步 加 大 对 系统 对 问 
题 的 覆盖 率 ;@ 对 知识 图 谱 进 一 步 完善 和 扩充 。 

在 本 系统 的 测试 过 程 中 ,笔者 还 发 现 ,单纯 的 以 文 
本 形式 来 回答 用 户 提出 的 问题 ,效果 并 不 理想 ,如 能 在 
系统 中 加 入 图 片 视频 .音频 等 多 媒体 文件 可 能 更 便于 
用 户 对 答案 的 理解 。 同 时 ,限定 域 问答 系统 具有 专业 
化 高 ,系统 性 强 的 特点 ,一 般 用 户 在 使 用 时 往往 不 知道 
系统 的 领域 范围 边界 在 哪 ,往往 提出 一 些 与 系统 无 关 
的 问题 。 因 此 ,如 何 将 开放 域 问答 系统 覆盖 范围 广 、 回 
答 方式 灵活 等 特点 融和 人 到 限定 域 问答 系 统 中 ,也 是 未 


来 下 作 需 要 突破 的 方面 。 
6 己 结 语 


人 大 数据 \ 云 计算 、 人 工 智能 等 技术 的 不 断 成 熟 和 深 
AC 画 用 ,改变 了 传统 的 信息 服务 方式 ,以 新 一 代 信息 技 
术 海 支撑 的 信息 服务 具有 交互 更 灵活 ,响应 更 快速 、 内 
罕 吉 丰富 .服务 移动 化 等 特点 ,方面 给 人 们 带 来 更 多 
Ej, 另 一 方面 也 节省 了 大 量 的 人 力 成 本 。 因 此 ,本 文 
研 惨 结果 是 智能 信息 服务 的 初步 探索 ,也 是 践 行 智 右 
傣 售 息 服务 的 有 益 党 试 ,具有 重要 的 现实 意义 和 实践 
价 砷 。 笔 者 基于 知识 图 谱 技术 ,构建 了 “一 带 一 路 " 投 
司 答 系统 。 首 先 , 在 领域 专家 指导 下 根据 现 有 公开 
据 资源 ,如 《“ 一 带 一 路 "沿线 国家 投资 指南 《中 国 
对 瑟 投 资 企业 名 录 》、 百 度 知道 和 知 平 问答 等 数据 建立 
了 3- 带 一 路 "投资 知识 图 谱 , 在 此 基础 上 ,实现 了 问 
答 系统 的 各 部 分 功能 ,包括 问题 预 处 理 ,问题 分 类 、 问 
题 模板 匹配 和 答案 查询 。 实 验 表明 ,该 系统 能 有 效 回 
答 “ 一 带 一 路 "投资 相关 问题 。 下 一 步 的 工作 包括 进 
一 步 提高 系统 的 语义 理解 功能 .扩展 系统 可 回答 问题 
的 覆盖 范围 .增强 答案 的 表现 能 
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> Abstract: | Purpose/significance | The question answering system for “the Belt and Road ”investment has im- 


aportant research and application significance. It can effectively integrate information from multiple sources and pro- 
e user with fast, accurate and high-quality “ the Belt and Road” investment information. | Method/process| 
Eistly, the information which related to the “the Belt and Road” investment was collected, processed and integrat- 
et and then, under the guidance of experts, the “ the Belt and Road” investment knowledge graph was constructed. 
© this basis, the functions of each part of question answering system were realized, including: question preprocess- 
ing, question classification, question template matching and answer query. | Result/conclusion | The result shows 
that, this system can effectively answer questions about “the Belt and Road” investment. 


Keywords: question answering system knowledge graph the Belt and Road system construction 
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